调查数据缺失值常用插补方法比较的实证分析

调查数据缺失值常用插补方法比较的实证分析

作者:师大云端图书馆 时间:2016-12-25 分类:硕士论文 喜欢:3687
师大云端图书馆

【摘要】由于调查受到各种已知或者未知因素的影响,往往会出现调查数据的缺失。在统计中,调查数据的缺失值问题是目前普遍存在而且难处理的问题。近年来,随着大数据时代的到来,这一问题越来越受到国内外学者的关注。数据缺失,尤其是高缺失率很容易引起数据本身的可用性的缺失,增加了数据分析的难度,使得统计分析出现很大的偏差,从而会降低研究者工作效率。对于含有缺失值的调查数据,事前预防是最有效的方法,即在调查过程中把无回答率降到最低,提高被调查者的回答率。但是由于各种因素的影响,现实中的无回答总是无法避免的,所以,对于调查数据无回答的事后处理显得尤为重要。调查中出现的问题不同,得到的含有缺失值的调查数据的特点也就不一样,所以采取的处理这些缺失值的方法也是不相同的。本文选取统计学上常用的缺失值插补方法,包括EM算法插补、多重插补法、回归插补法、均值插补法这四种插补方法,分别通过构建统计学模型来进一步探索这四种插补方法的插补效果。含有缺失值的数据集是利用SPSS随机生成。所研究的条件分别为:变量缺失的模式,即单一变量缺失和多变量缺失;不同的缺失率分别为10%、20%、30%、40%、50%;不同缺失率下的辅助变量的个数不同,分别为4个、7个及10个辅助变量的模拟比较分析。全文首先介绍了选题背景和研究意义,以及国内外对缺失值处理方法的文献综述和国内外文献评述。第2章介绍了缺失数据问题相关的理论,包括缺失数据产生的原因以及缺失值的缺失机制和模式。第3章详细总结了统计上常用的缺失数据插补方法。第4章利用缺失值插补常用方法对调查数据进行实证分析。利用均值插补、回归插补、EM算法、多重插补这四种插补方法,分别在单一变量缺失和多变量缺失的情况下,结合数据挖掘技术分析这些方法在不同的数据缺失率(10%、20%、30%、40%、50%)的插补效果分析。第5章是对全文的总结及展望。
【作者】冯丽红;
【导师】李春林;
【作者基本信息】河北经贸大学,应用统计学(专业学位),2014,硕士
【关键词】调查数据;缺失率;变量缺失;CART模型;插补效果比较;

【参考文献】
[1]史晓杰.小型不锈钢填料吸附石油污水中乳化油份的研究[D].兰州大学,化学工艺,2013,硕士.
[2]任兴权.食用植物油中抗氧化剂丁基羟基茴香醚(BHA)和2,6-二叔丁基-4-甲基苯酚(BHT)的检测[D].兰州大学,化学工程与技术,2013,硕士.
[3]闫曦.A公司员工培训效果影响因素及其提升策略研究[D].北京交通大学,2014.
[4]丁杨彬.碳点/二氧化钛纳米管阵列复合材料制备及其应用研究[D].南昌航空大学,环境工程,2013,硕士.
[5]郭冬梅.以“那达慕”推动内蒙古体育文化产业发展研究[D].内蒙古师范大学,民族传统体育学,2012,硕士.
[6]王皓.NO与ICAM-1在大鼠重症急性胰腺炎微循环障碍中的作用[D].青海大学,外科学,2011,硕士.
[7]陈亦农.论农村中小学安全管理问题与对策[D].华中师范大学,教育管理,2014,硕士.
[8]张强.雾天图像清晰化方法研究[D].兰州理工大学,信号与信息处理,2014,硕士.
[9]王曌.细胞块石蜡包埋切片鉴别良恶性胸腹腔积液的临床价值[D].吉林大学,临床医学,2013,硕士.
[10]吕成成.氯代异辛烷—异辛醇分离技术研究与开发[D].天津大学,化学工程,2013,硕士.
[11]甘武琳.生态旅游景区品牌管理模式研究[D].广西大学,2003.
[12]胡妍.用于多药耐药相关基因检测的电化学DNA生物传感研究[D].福建医科大学,药学,2014,硕士.
[13]乔俏.长春市南关区佳园社区空巢老人养老保障问题研究[D].吉林大学,农业推广,2013,硕士.
[14]费腾.我国商业银行能效贷款研究[D].首都经济贸易大学,金融学,2014,硕士.
[15].零售商业全渠道营销时代开启——专访容易网创始人/CEO陈从容[J].市场瞭望(上半月),2014,02:50-53.
[16]施圣阳.源语语速较快时口译笔记的处理方式[D].上海外国语大学,翻译(专业学位),2014,硕士.
[17]齐飞.会计师事务所质量控制模式研究[J].会计研究,2013,11:82-87+96.
[18]郭勇,卢富德,高德,王振林.基于MATLAB/GUI缓冲包装动力学优化设计[J].振动与冲击,2014,02:81-83.
[19]余洋.服务补救对顾客满意度影响研究[D].广西科技大学,企业管理,2013,硕士.
[20]刘小艳.《朴通事谚解》《朴通事新释谚解》句法研究[D].北京外国语大学,语言学及应用语言学,2014,硕士.
[21]石利娟.所得税改革对企业投资方向的影响研究[D].山东大学,会计学,2013,硕士.
[22]安应振.韩国比较优势战略性贸易政策的探讨[D].吉林大学,世界经济,2004,硕士.
[23]王文学.行销通药业项目人力资源管理设计方案[D].电子科技大学,项目管理(专业学位),2012,硕士.
[24]苍粟.中日消息类电视新闻节目传播模式差异性研究[D].东北师范大学,传播学,2012,硕士.
[25]高杰,何平,张锐.“中等收入陷阱”理论述评[J].经济学动态,2012,03:83-89.
[26]任秋壮.葡萄籽毛油的精炼工艺研究[D].西北农林科技大学,食品工程,2012,硕士.
[27]李宗南.基于光能利用率模型和定量遥感的玉米生长监测方法研究[D].中国农业科学院,农业遥感,2014,博士.
[28]张燕芬.明清服饰之器物纹样研究[D].江南大学,设计艺术学,2012,硕士.
[29]杨耀华.我国民间融资法律问题研究[D].贵州民族大学,法律,2013,硕士.
[30]董艳飞.人体红细胞比容近红外无创检测方法研究[D].中国科学院研究生院(长春光学精密机械与物理研究所),光学工程,2013,硕士.
[31]吴梅.抗糖合剂制剂工艺及质量标准研究[D].西南交通大学,微生物与生化药学,2013,硕士.
[32]付楠良.特立氟胺治疗MS疗效及安全性系统评价[D].山西医科大学,神经病学(专业学位),2013,硕士.
[33]周娜.浙江省经济增长与环境污染关系研究[D].杭州电子科技大学,统计学,2014,硕士.
[34]范志涛.甲状腺乳头状癌颈部淋巴结转移影像学特征与病理结果对比分析[D].河北医科大学,耳鼻咽喉科学(专业学位),2014,硕士.
[35]阮程广.通用技术课程网络教学平台设计与实现[D].浙江工业大学,计算机技术,2012,硕士.
[36]冯威.城市生活垃圾焚烧炉炉排系统设计及其优化[D].重庆理工大学,机械制造及其自动化,2012,硕士.
[37]刘益青,高伟聪,高厚磊,董金海,王立明.基于窄带滤波器和变长数据窗的相量提取算法[J].电力系统自动化,2015,08:126-132.
[38]李艳,芦艾,王永杰.新型纳米材料补强硅橡胶的研究进展[J].橡胶工业,2011,11:698-702.
[39]齐春华.顾客参与对商业银行服务创新绩效的影响研究[D].华中科技大学,技术经济及管理,2012,硕士.
[40]周密.浅论我国社区矫正制度的形成与发展[D].云南财经大学,法律(专业学位),2013,硕士.
[41]谢思赟.卫星姿态控制系统故障诊断研究[D].厦门大学,检测技术与自动化装置,2014,硕士.
[42]王永模.茶毛虫性信息素应用研究与茶园无公害防治技术体系[D].湖南农业大学,农业昆虫与害虫防治,2004,硕士.
[43]刘情情.混凝土重力坝复杂岩基渗流规律与渗控效果研究[D].清华大学,水利工程,2013,硕士.
[44]孙纲.论企业融资结构的优化[D].合肥工业大学,产业经济学,2004,硕士.
[45]张中华,晏双龙,杜书权,解江浩.仿生纳米材料对沥青与集料界面黏附性的影响研究[J].河南科技,2011,23:85.
[46].杭州朗拓生物科技有限公司[J].农业工程,2014,S1:79-83.
[47]刘鹏程.吕振羽早期思想研究[D].清华大学,马克思主义理论,2012,硕士.
[48]郭旭.转型期化解城市社区社会矛盾的对策研究[D].湖北工业大学,马克思主义中国化研究,2014,硕士.
[49]周岩.以形容动词为中心考察中日同形同义词[D].吉林大学,日语语言文学,2013,硕士.
[50]李婧芳.汉语结果补语、程度补语和状态补语及其英译研究[D].暨南大学,汉语言文字学,2013,硕士.